首页> 外文OA文献 >Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
【2h】

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

机译:利用WaveNet对mel谱图进行自然TTs合成   预测

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

This paper describes Tacotron 2, a neural network architecture for speechsynthesis directly from text. The system is composed of a recurrentsequence-to-sequence feature prediction network that maps character embeddingsto mel-scale spectrograms, followed by a modified WaveNet model acting as avocoder to synthesize timedomain waveforms from those spectrograms. Our modelachieves a mean opinion score (MOS) of 4.53 comparable to a MOS of 4.58 forprofessionally recorded speech. To validate our design choices, we presentablation studies of key components of our system and evaluate the impact ofusing mel spectrograms as the input to WaveNet instead of linguistic, duration,and F0 features. We further demonstrate that using a compact acousticintermediate representation enables significant simplification of the WaveNetarchitecture.
机译:本文介绍了Tacotron 2,这是一种直接从文本进行语音合成的神经网络体系结构。该系统由一个递归序列到序列特征预测网络组成,该网络将字符嵌入映射到梅尔尺度谱图,然后是一个修改的WaveNet模型,用作声码器,从这些谱图中合成时域波形。我们的模型实现了4.53的平均意见得分(MOS),与专业录音的MOS的4.58相当。为了验证我们的设计选择,我们介绍了系统关键组件的烧蚀研究,并评估了使用梅尔谱图作为WaveNet的输入(而不是语言,持续时间和F0功能)的影响。我们进一步证明,使用紧凑的声学中间表示形式可以显着简化WaveNet体系结构。

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号